# 22.语音合成(TTS)进阶

之前已经整理了一篇入门知识 语音合成(TTS)入门, 接下来分享一些进阶的资料。

  1. 语音合成技术

目前主流的语音合成分为基于统计参数的语音合成、波形拼接语音合成、混合方法以及端到端神经网络语音合成。

语音合成流水线包含文本前端(Text Frontend)、声学模型(Acoustic Model) 和 声码器(Vocoder) 三个主要模块。主要功能是通过文本前端模块将原始文本转换为字符/音素;通过声学模型将字符/音素转换为声学特征,如线性频谱图、mel频谱图、LPC 特征等;通过声码器将声学特征转换为波形。

文本前端

文本前端模块主要包含: 分段(Text Segmentation)、文本正则化(Text Normalization, TN)、分词(Word Segmentation, 主要是在中文中)、词性标注(Part-of-Speech, PoS)、韵律预测(Prosody)和字音转换(Grapheme-to-Phoneme,G2P)等。

声学模型

声学模型将字符/音素转换为声学特征,如线性频谱图、mel频谱图、LPC 特征等。 声学特征以"帧"为单位,一般一帧是 10ms 左右,一个音素一般对应 5~20 帧左右。

声码器

声码器将声学特征转换为波形.

  1. 基于深度学习的语音合成

ChatTTS的官网入口

  1. 官方GitHub源码库 (opens new window)
  2. Hugging Face模型地址 (opens new window)
  3. ModelScope模型地址 (opens new window)

如何ChatTTS

  1. 在线体验Demo ModelScope版Demo: (opens new window)
  2. 本地运行
# 安装modelscope
pip3 install modelscope -i https://mirrors.aliyun.com/pypi/simple/

# 下载模型
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')

1
2
3
4
5
6
7

ChatTTS 视频



Last Updated: 7/13/2024, 11:02:01 PM
Apache License 2.0 | Copyright © 2022 by xueliang.wu 苏ICP备15016087号